https://adcloud.compbio.ulaval.ca/index.php/s/SdDrKrkbq9QHCLn
Pour les protéines, miRNA et gènes, on possède les données de 150 échantillons. On a ensuite 142 variables pour les protéines, 184 pour les miRNA et 200 pour les gènes.
Figure 1.1: Distribution du coefficient de variation dans les 3 blocs - mirna, mrna & protƩine
Figure 1.2: Distribution du coefficient de variation dans les 3 blocs - mirna, mrna & protƩine
Figure 1.3: Distribution du coefficient de variation dans les 3 blocs - mirna, mrna & protƩine
On peut voir sur les histogrammes que le type de donnĆ©es possĆ©dant le plus de variabilitĆ© est le type protĆ©ine. En effet, sa variabilitĆ© est comprise entre -100 et 250, mĆŖme si on peut observer quāelle est comme les autres centrĆ©e vers 0.
En supprimant les données les plus variantes (\(\lvert{C_v}\rvert \geq 0.15\)), il ne reste que 142 protéines, 174 gènes et 82 miRNA.
Le gĆØne avec le plus grand coefficient de variance de notre jeu de donnĆ©es est PLCD4. La protĆ©ine codĆ©e par ce gĆØne peut jouer un rĆ“le dans la croissance et la prolifĆ©ration cellulaire. Son expression peut donc notamment ĆŖtre un marqueur de cancer. PLCD4 est situĆ© sur le chromosome 2, et sa longueur est de 30749 nuclĆ©otides. La protĆ©ine correspondant Ć ce gĆØne est Q9BRC7, dāune longueur de 762 nuclĆ©otides, mais nāest pas contenue dans notre jeu de donnĆ©es.
## Eigenvalues for the first 10 principal components, see object$sdev^2:
## PC1 PC2 PC3 PC4 PC5 PC6
## 4601.980533 46.705472 21.519114 12.661752 9.796326 8.634070
## PC7 PC8 PC9 PC10
## 7.445820 6.180146 5.062428 4.265798
##
## Proportion of explained variance for the first 10 principal components, see object$explained_variance:
## PC1 PC2 PC3 PC4 PC5 PC6
## 0.956078087 0.009703231 0.004470674 0.002630525 0.002035222 0.001793759
## PC7 PC8 PC9 PC10
## 0.001546896 0.001283948 0.001051738 0.000886235
##
## Cumulative proportion explained variance for the first 10 principal components, see object$cum.var:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
## 0.9560781 0.9657813 0.9702520 0.9728825 0.9749177 0.9767115 0.9782584 0.9795423
## PC9 PC10
## 0.9805941 0.9814803
##
## Other available components:
## --------------------
## loading vectors: see object$rotation
Figure 2.1: Expliquation de la variabilitƩ par les diffƩrente composante - avec center & scale false
##
## Call:
## tune.pca(X = mrna.c, ncomp = 50, center = F, scale = F)
##
## for all principal components, see object$sdev, object$explained_variance and object$cum.var
Au vu de lāhistogramme:
## Eigenvalues for the first 10 principal components, see object$sdev^2:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
## 33.720079 23.308702 9.887708 8.601462 7.448849 5.701675 4.198577 3.765421
## PC9 PC10
## 3.265814 3.045500
##
## Proportion of explained variance for the first 10 principal components, see object$explained_variance:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## 0.19379356 0.13395806 0.05682591 0.04943369 0.04280948 0.03276825 0.02412975
## PC8 PC9 PC10
## 0.02164035 0.01876904 0.01750288
##
## Cumulative proportion explained variance for the first 10 principal components, see object$cum.var:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
## 0.1937936 0.3277516 0.3845775 0.4340112 0.4768207 0.5095889 0.5337187 0.5553590
## PC9 PC10
## 0.5741281 0.5916310
##
## Other available components:
## --------------------
## loading vectors: see object$rotation
Figure 2.2: Expliquation de la variabilitƩ par les diffƩrente composante - avec center & scale true
Les 30 premières composantes expliquent 80% de la variabilité et elles sont donc sélectionnées.
Figure 2.3: PCA des gĆØnes
Les dix variables contribuant le plus Ć lāaxe 1 sont : ZNF552, C4orf34, KDM4B, FUT8, CCNA2, TTC39A, LRIG1, SEMA3C, PREX1, SLC43A3. Les graphiques reprĆ©sentant les variables sont actuellement trĆØs difficilement lisibles, on doit donc afficher les contributions des variables aux composantes Ć lāaide dāune commande.
Figure 2.4: PIndividus selon composantes 1-2 pcas
On peut observer que la PCA sépare de façon assez distincte les individus des trois groupes selon les 2 premières composantes, malgré des frontières assez floues entre les groupes.
Les gènes sélectionnés par la spca pour la première composante sont : KDM4B, ZNF552, PREX1, TTC39A, STC2, LRIG1, C4orf34, MTL5, FUT8, SLC19A2. Pour la seconde composante principale, on a retenu APBB1IP, NCF4, FLI1, C1orf162, CSF1R.
Figure 2.5: Spase PCA des gĆØnes
Figure 2.6: Comparaisons des composantes 1 et 2 avec les groupes dāechantillons affiches en couleur
Figure 2.7: Arrow plot des composantes 1 et 3
Les variables retenues pour la troisiĆØme composante sont C1QB, Caspase.7_cleavedD198.
Figure 2.8: Heatmap ā¦
Figure 2.9: Network ā¦
Sur la spls, on peut observer 7 clusters différents possédant une corrélation supérieure à 0.65 ou inférieure à -0.65 (3 protéines et 4 gènes).
Figure 2.10: Block pls ā¦
Figure 2.11: Block pls ā¦
Figure 2.12: Block pls ā¦
Figure 2.13: Block spls ā¦
Figure 2.14: Block spls ā¦
Figure 2.15: Block spls ā¦
Les variables sélectionnées sur la première composante sont:
Figure 2.16: Individus selon composantes 1-2 PLS-DA
Par rapport Ć la PCA, on peut considĆ©rer que la PLS-DA permet de mieux retrouver nos trois groupes dāĆ©chantillons sur ce graphique par rapport aux deux premiĆØres composantes principales. En effet, les trois groupes sont ici clairement distincts dans lāespace du graphique, et les frontiĆØres entre groupes sont bien plus marquĆ©es. Il semblerait donc que la variabilitĆ© des donnĆ©es calculĆ©e par la PLS-DA permet de mieux expliquer les diffĆ©rences gĆ©nĆ©tiques entre les groupes de nos Ć©chantillons.
Figure 2.17: Block splsda all
Figure 2.18: Block splsda après sélection
Figure 2.19: Circosplot